LOCAL AND GLOBAL FEATURES FUSION FOR SOUND EVENT DETECTION WITH HETEROGENEOUS TRAINING DATASET AND POTENTIALLY MISSING LABELS
ひとまず2節を見ている
1節は飛ばした
従来手法は単純すぎると言っている
これは完全に学習戦略では
モデルアーキテクチャは中間層の特徴量を交換する以外は一緒?
特に工夫はないのかな
1節に色々良さげなリソースが書いてある
モデルとか学習手法とか
後でいいか
attnetion機構の一部である cross-attentionのことを言っているのか?